추천 엔진을 구축하기 위한 기본서

예전에 읽었지만 책정리 중 간단히 정리해둔다.

추천 엔진은 협업필터링 (이웃기반), 콘텐츠 기반, 상황 기반으로 주로 구성한다.

이웃기반은 다양한 방식의 벡터 거리를 이용한다.

콘텐츠 기반은 콘텐츠 특성의 스코어를 이용한다. 예를 들어 영화 카테고리 선호도를 이용할 수 있다.

상황 기반은 콘텐츠 기반이나 비슷하지만 명시적 필터링을 주로 지칭한다. 예를 들어 이미 구매한 제품은 추천에서 배제할 수 있다.

하이브리드는 위에 거론한 것들을 쓰까쓰까한 것이다.

예제로는 R, 파이썬, 스파크, 머하웃들을 거론한다.

파이썬, 스파크, 머하웃등을 주로 사용했고, R은 맛만 보았다.

이 책이 나온 이후로 딥러닝을 이용하는 방법들도 등장했으나 내 의견은 회의적이다. 가성비가 떨어진다.

실제로 나는 딥러닝을 이용한 경쟁자들이 참여한 경진대회에서 우승한 적이 있는데, 나는 파이썬 날코딩을 이용했다.

동원한 방법은 이웃기반, 콘텐츠 기반, 상황 기반의 하이브리드였다.

개인적으로 추천의 최대 난제 또는 문제점은 롱테일이다.

보고를 위해 스코어를 올리면 롱테일을 버릴 수 밖에 없다. 사용자들은 협소한 추천의 공간에 갇힌다.

넷플릭스 리모콘 놀이하면서 볼 것이 없다라는 것이 대표적인 예다.

롱테일을 건지면 스코어는 떨어진다.

할 말은 더 있지만 이만~